class: center, middle, inverse, title-slide # Datasets ## Descripción de variables ### Yanely Luna Gutiérrez ### Facultad de Ciencias, UNAM ### 2021/03/09 (updated: 2021-05-08) --- ??? Image credit: [Wikimedia Commons](https://commons.wikimedia.org/wiki/File:Sharingan_triple.svg) --- class: center, middle # Package "insuranceData" --- class: inverse, center, middle ```r #install.packages("insuranceData") library(insuranceData) ``` --- ## `AutoBi`: Automobile Bodily Injury Claims Contiene información de 1340 reclamaciones en 8 variables relacionadas con características demográficas del reclamante, participación legal y la pérdida económica, entre otras. Los datos fueron recolectados en 2002 por la _Insurance Reaserch Council_ (IRC) y pertenecen a un mismo estado de EE.UU. Todas las variables están registradas como numéricas. --
--- **Variables**: -- + `CASENUM`: Número de caso para identificar la reclamación. -- + `ATTORNEY`: Indica si el reclamante está representado por un abogado. - 1: Sí - 2: No -- + `CLMSEX`: Género del reclamante. Contiene 12 valores nulos. - 1: Hombre - 2: Mujer -- + `MARITAL`: Estado civil del reclamante. Contiene 16 valores nulos. - 1: Casado - 2: Soltero - 3: Viudo - 4: Divorciado -- + `CLMINSUR`: Indica si el vehículo del reclamante se encontraba o no asegurado. - 1: Sí - 2: No - 3: No aplicable --- + `SEATBELT`: Indica si el reclamante estaba usando el cinturón de seguridad. - 1: Sí - 2: No - 3: No aplicable -- + `CLMAGE`: Edad del reclamante. Contiene 189 valores nulos. -- + `LOSS`: El monto total de la pérdida económica del reclamante (en miles de dólares). --- ## `AutoClaims`: Automobile Insurance Claims Esta base de datos contiene información sobre la experiencia de una aseguradora del oeste de EE.UU. en reclamaciones de seguros de automóviles de pasageros privados. La aseguradora utiliza un sistema de clasificación de riesgo para las pólizas basado en las características de la persona que opera el vehículo y las características propias del vehículo. La base está conformada por 6773 observaciones de 5 variables. --
--- **Variables:** -- + `STATE`: Variable categórica con códigos del 01 al 17 que se asigna aleatoriamente para representar un estado. -- + `CLASS`: Representa la calificación del operador del vehículo. Toma en cuenta variables como la edad, género, estado civil y uso del vehículo. Está registrada como una variable categórica con los siguientes niveles: `C1`,`C11`, `C1A`, `C1B`, `C1C`, `C2`, `C6`, `C7`, `C71`, `C72`, `C7A`, `C7B`, `C7C`, `F1`, `F11`, `F6`, `F7`, `F71`. -- + `GENDER`: Indica el género del operador. Está registrada como una variable categórica con los siguientes niveles: - F: Mujer - M: Hombre -- + `AGE`: Edad del operador. -- + `PAID`: Monto de la reclamación que se pagó. --- ## `AutoCollision`: Automobile UK Collision Claims La base de datos original contiene 8942 pérdidas por colisiones en seguros de automóviles de pasajeros privados del Reino Unido. Esta base está conformada por 32 observaciones: 8 tipos de conductores (por grupo de edad) y 4 tipos de vehículos. --
--- **Variables:** -- + `Age`: Edad del conductor. Está registrada como una variable categórica con los niveles `A`, `B`, `C`, `D`, `E`, `F`, `G`, `H`, `I`. -- + `vehicle_Use`: Indica el propósito del uso del vehículo. Es una variable categórica con los siguientes niveles: - `Business`: - `DriveLong`: Para conducir al trabajo (más de 10 millas). - `DriveShort`: Para conducir al trabajo (menos de 10 millas). - `Pleasure`: -- + `Severity`: Monto promedio de reclamación (en libras esterlinas ajustado por inflación). -- + `Claim_Count`: Número de reclamaciones. --- ## `ClaimsLong`: Claims Longitudinal Contiene datos simulados basados en una base de datos de seguros de autos. Se tienen 40000 pólizas por 3 años, resultando en 120000 registros. --
--- **Variables:** -- + `policyID`: Número de póliza. -- + `agecat`: Variable categórica con 5 niveles que representa la edad a la que pertenece la edad del conductor, siendo 1 el grupo de edad más jóven. -- + `valuecat`: Variable categórica con 6 niveles que representa el valor del vehículo. (La categoría 1 fue registrada como 9.) -- + `period`: Año de observación. Está registrada como variable numérica con valores 1,2,3. -- + `numclaims`: Número de reclamaciones. -- + `claim`: --- ## `dataCar`: data Car La base de datos contiene información de pólizas de seguro de autos con vigencia de un año. Se tienen información de 67856 pólizas. --
--- **Variables:** -- + `veh_value`: Valor del vehículo en unidades de 10 mil dólares. -- + `exposure`: Exposición de la póliza. Valor entre 0 y 1. -- + `clm`: Indica si ocurrió o no una reclamación. - 0: No - 1: Sí -- + `numclaims`: Número de reclamaciones de la póliza. -- + `claimcst0`: Monto de la reclamación. -- + `veh_body`: Indica el tipo de vehículo. Es una variable categórica con los siguientes niveles: `BUS`, `CONVT`, `COUPE`, `HBACK`, `HDTOOP`, `MCARA`, `MIBUS`, `PANVN`, `RDSTR`, `SEDAN`, `STNWG`, `TRUCK`, `UTE`. -- + `veh_age`: Antigüedad del vehículo. Puede tomar los valores 1,2,3 o 4, siendo 1 el grupo de menor antigüedad. -- + `gender`: Género del conductor. - F: Mujer - M: Hombre --- + `area`: Área de residencia del conductor. Es una variable categórica con los niveles `A`, `B`, `C`, `D`, `E`, `F`. -- + `agecat`: Categoría a la que pertenece la edad del conductor. Los niveles van del 1 al 6, siendo 1 el nivel de menor edad. -- + `X_OBSTAT_`: Variable factor con un único nivel 01101 0 0 0. --- ## `dataOhlsson`: Motorcycle Insurance Los datos provienen de un estudio realizado por una aseguradora suiza (Wasa) que involucra seguros de "casco parcial" para motocicletas. Contiene información agregada de todas las pólizas y reclamaciones entre 1994 y 1998. Se tienen 64548 observaciones en 9 variables. --
--- **Variables:** -- + `agarald`: Edad del propietario en años. -- + `kon`: Género del propietario. - K: Mujer - M: Hombre -- + `zon`: Zona geográfica. Toma los valores enteros del 1 al 7. -- + `mcklass`: Clasificación basada en el _EV ratio_ calculado como: `$$EV = \frac{\text{Potencia del motor en KW}\times100}{\text{Peso del vehículo en kg + 75} }$$` y redondeado al menor entero más cercano. Los valores de _EV ratio_ están divididos en 7 clases. -- + `fordald`: Antigüedad del vehículo en años. --- + `bonuski`: _Bonus class_. Toma valores enteros entre 1 y 7. Un conductor nuevo comienza con 1 punto y por cada año en el que no tenga reclamaciones se incrementa 1 punto. Al ocurrir la primer reclamación se restan 2 puntos. El conductor no puede regresar a la clase 7 (la más alta) a menos que hayan pasado 6 años consecutivos sin reclamación. -- + `duration`: Años de vigencia de la póliza. -- + `antskad`: Número de reclamaciones. -- + `skadkost`: Monto de la reclamación. --- ## `IndustryAuto`: Auto Industry Contiene la información agregada de la industria en las coberturas de responsabilidad y gastos médicos en autos, correspondientes al año 2004 en millones de dólares. Se tienen 55 observaciones sobre 3 variables. --
--- **Variables:** -- + `Incurral.Year`: Año en el que se realizó la reclamación. -- + `Development.Year`: Número de años que transcurrieron entre la ocurrencia de la reclamación y el momento en que se hizo el pago de la misma. -- + `Claim`: Monto agregado de los pagos netos. --- ## `SingaporeAuto`: Singapore Automobile Claims Esta base de datos proviene de la _General Insurance Association of Singapore_. Se compone de 7483 observaciones sobre 15 variables relacionadas con siniestros en automóviles. --
--- **Variables:** -- + `SexInsured`: Variable categórica que indica el sexo del conductor del vehículo. - F: Mujer - M: Hombre - U: No especificado. -- + `Female`: Indica si el conductor del vehículo es de sexo femenino. Es consistente con la información de la variable `SexInsured`. -- + `VehicleType`: Tipo del vehículo. Es una variable categórica con niveles `A`, `G`, `M`, `P`, `Q`, `S`, `T`, `W`, `Z`. -- + `PC`: Indica si se trata de un vehículo privado o no. - 1: Sí - 2: No -- + `Clm_Count`: Número de reclamaciones durante el año. -- + `Exp_weights`: Exposición o fracción del año durante la cual la póliza estuvo en efecto. --- + `LNWEIGHT`: Logaritmo natural de `Exp_weights` -- + `NCD`: _No claims discount_. Descuento por no reclamaciones. Basado en el previo registro de accidentes del conductor. El descuento es mayor cuando el registro previo es mejor. -- + `AgeCat`: Edad del conductor agrupada en siete categorías: - 0: Menor o igual a 21 años. - 1: Entre 22 y 25 años, inclusivo. - 2: Entre 26 y 35 años, inclusivo. - 3: Entre 36 y 45 años, inclusivo. - 4: Entre 46 y 55 años, inclusivo. - 5: Entre 56 y 65 años, inclusivo. - 6: Mayor o igual a 66 años. -- + `AutoAgeO`: - 1 Si se trata de un auto privado y `VAgeCat = 0`. - 0 En otro caso -- + `AutoAge1`: - 1 Si se trata de un auto privado y `VAgeCat = 1`. - 0 En otro caso. --- + `AutoAge2`: - 1 Si se trata de un auto privado y `VAgeCat = 2`. - 0 En otro caso -- + `AutoAge`: - 1 Si se trata de un auto privado y `VAgeCat` es 0, 1 o 2. - 0 En otro caso -- + `VAgeCat`: Antigüedad del vehículo agrupada en siete categorías. - 0: Menor a un año. - 1: 1 año. - 2: 2 años. - 3: Entre 3 y 5 años. - 4: Entre 6 y 10 años. - 5: Entre 11 y 15 años. - 6: Mayor o igual a 16 años. -- + `VAgecat1`: Representa los mismos grupos que `VAgeCat` pero con las categorías 0,1 y 2 agrupadas en la categoría 2. --- ## `Thirdparty`: Third party insurance El seguro _third party_ (a terceros) es un seguro obligatorio para conductores de automóviles en Australia. Este conjunto de datos contiene el registro del número de reclamaciones hechas de este tipo de seguro durante doce meses entre 1984 y 1986 en cada una de las 176 zonas geográficas de New South Wales, Australia. --
--- **Variables:** -- La base de datos contiene 176 registros en una columna con nombre `lga.sd.claims.accidents.ki.population.pop_density` que contiene valores enteros (correspondiente a la población de cada área geográfica). Sin embargo, el nombre de cada renglón contiene el resto de la información de las otras variables. Por ejemplo, el nombre del primer renglón es ASHFIELD;1;1103;2304;920;124850;0, en el cual se encuentran las observaciones de las demás variables separadas por un punto y coma. -- + `lga`: _local government areas_. Nombre del área geográfica. -- + `sd`: _statistical divisions_. Indica el número de la división estadística a la que pertenece cada área. Exisiten 13 divisiones. -- + `claims`: Número de reclamaciones realizadas. -- + `accidents`: Número de accidentes reportados. -- + `ki`: Número de personas que murieron o resultaron heridas. -- + `population`: Población total. -- + `pop_density`: --- ``` ## population lga sd claims accidents ki pop_density ## 1 499001 ASHFIELD 1 1103 2304 920 124850 ## 2 148379 AUBURN 1 1939 2660 1465 143500 ## 3 205407 BANKSTOWN 1 4339 7381 3864 470700 ## 4 25879 BAULKHAMHILLS 1 1491 3217 1554 311300 ## 5 81222 BLACKTOWN 1 3801 6655 4175 584900 ## 6 178143 BOTANY 1 387 2013 854 106350 ``` --- ## `WorkersComp`: Workers Compensation Contiene información sobre las reclamaciones por incapacidad parcial permanente en el seguro de compensación a trabajadores. Los datos provienen originalmente de la _National Council on Compensation Insurance_. Con la finalidad de mantener la confidencialidad, la información detallada sobre las clases de ocupación de los trabajadores y los años observados no se encuentra disponible. Se tienen 847 observaciones sobre 4 variables. --
--- **Variables:** -- + `CL`: Identificador de la clase de trabajador. -- + `YR`: Identificador del año. -- + `PR`: Nómina (como medida de exposición a las pérdidas) expresada en unidades de 10 millones de dólares. -- + `LOSS`: Pérdidas por compensaciones por incapacidad parcial permanente, expresadas en unidades de 10 millones de dólares. --- # Datasets del libro _Regression Modeling with Actuarial and Financial Applications_ --- ### `AutoBi`: Automobile Bodily Injury Claims No disponible. --- ### `AutoBIsim`: Automobile Bodily Injury Claims Simulated Contiene 1340 observaciones de 8 variables cuyos nombres son los mismos que los de la base `AutoBi` que se describió anteriormente y que también tiene 1340 observaciones. A diferencia de `AutoBi`, `AutoBIsim` no contiene valores nulos. --
--- ### `AutoCollision`: Automobile UK Collision Claims Contien la misma información que la base antes descrita con el mismo nombre a excepción de la columna `Age` en la que se muestra explícitamente los rangos de edad que conforman cada grupo (en la anterior se muestran solo los nivels `A`,`B`,...,`H`). + `A`: 17-20 años. + `B`: 21-24 años. + `C`: 25-29 años. + `D`: 30-34 años. + `E`: 35-39 años. + `F`: 40-49 años. + `G`: 50-59 años. + `H`: 60+ años. -- --- ### `AutoClaims`: Automobile Insurance Claims Contiene los mismos datos que la base con el mismo nombre descrita anteriormente. -- --- ### `SingaporeAuto`: Singapore Automobile Claims Contiene los mismos datos que la base con el mismo nombre descrita anteriormente. -- --- ### Swedish Motor Insurance Los datos fueron recabados por el _Swedish Committee on the Analysis of Risk Premium in Motor Insurance_. Contiene información sobre las reclamaciones en la cobertura de responsabilidad civil en seguro de automóviles correspondientes al año 1977. Tomando en cuenta las 5 categorías de distania recorrida por el vehículo, 7 zonas geográficas, 7 categorías de bonus y 9 tipos de vehículos, existen 2205 categorías, sin embargo, solo se consideraron 2182. --
--- **Variables:** -- + `Kilometres`: Distancia conducida por el vehículo. Variable categórica con 5 niveles. -- + `Zone`: Zona geográfica del vehículo, agrupadas en 7 categorías. -- + `Bonu`: Basado en el registro previo de reclamaciones del conductor. Variable categórica con 7 niveles. -- + `Make`: Tipo del vehículo. Variable categórica con 9 niveles. -- + `Insured`: Exposición (fracción del año durante la cual estuvo vigente la póliza). -- + `Claims`: Número de reclamaciones. -- + `Payment`: Suma de los pagos de las reclamaciones.